IR


In [1]:
from cltk.ir.query import search_corpus

from cltk.ir.query import match_regex

from cltk.ir.query import search_corpus

Of corpus


In [3]:
matches = search_corpus('ὦ ἄνδρες Ἀθηναῖοι', 'tlg', context='sentence')

for andres in matches:
    print(andres)
    input()


('Symeon Logothetes Hist.', 'κτείνας δὲ τὸν Ἄβελ ὁ Κάϊν \nἔκρυψε τὸν νεκρόν, λαθεῖν ἐντεῦθεν οἰόμενος: βοῶντος δὲ \nπρὸς τὸν θεὸν τοῦ αἵματος ἐπακούει ὁ θεός: δικαίων γὰρ \nἐπακούει, κἂν τελευτήσαντες *ὦ*σιν, ἀδίκων δὲ καὶ αὐτὰς ἀπο-\nστρέφεται τὰς εὐχάς.')

('Symeon Logothetes Hist.', '\nκατὰ τούτους τοὺς χρόνους Μίδας τῆς Φρυγίας βασιλεὺς \nἀπέθανεν, ὅντινα τοῖς τότε καιροῖς ὄνου *ὦ*τα ἔχειν ἔλεγον.')

('Symeon Logothetes Hist.', 'Ἀρταξέρξης ὁ ἐπικληθεὶς *Ὦ*χος ἐβασί-\nλευσεν ἔτη κβʹ.')

('Symeon Logothetes Hist.', ' τελευταῖον δὲ εἰπὼν “*ὦ* \nΖεῦ, οἷος τεχνίτης κιθαρῳδὸς ἀπόλλυται” ἑαυτὸν ἀνεῖλεν.')

('Symeon Logothetes Hist.', 'ἀπέθανε δὲ βίᾳ τῆς νόσου, \nκράζων “*ὦ* Ζεῦ, πόσον κακόν ἐστιν ἐπιθυμοῦντά τινα ἀπο-\nθανεῖν καὶ μὴ τυγχάνειν.')
---------------------------------------------------------------------------
KeyboardInterrupt                         Traceback (most recent call last)
/Users/kyle/cltk/venv/lib/python3.5/site-packages/ipykernel/kernelbase.py in _input_request(self, prompt, ident, parent, password)
    701             try:
--> 702                 ident, reply = self.session.recv(self.stdin_socket, 0)
    703             except Exception:

/Users/kyle/cltk/venv/lib/python3.5/site-packages/jupyter_client/session.py in recv(self, socket, mode, content, copy)
    730         try:
--> 731             msg_list = socket.recv_multipart(mode, copy=copy)
    732         except zmq.ZMQError as e:

/Users/kyle/cltk/venv/lib/python3.5/site-packages/zmq/sugar/socket.py in recv_multipart(self, flags, copy, track)
    357         """
--> 358         parts = [self.recv(flags, copy=copy, track=track)]
    359         # have first part already, only loop while more to receive

zmq/backend/cython/socket.pyx in zmq.backend.cython.socket.Socket.recv (zmq/backend/cython/socket.c:6507)()

zmq/backend/cython/socket.pyx in zmq.backend.cython.socket.Socket.recv (zmq/backend/cython/socket.c:6307)()

zmq/backend/cython/socket.pyx in zmq.backend.cython.socket._recv_copy (zmq/backend/cython/socket.c:1877)()

/Users/kyle/cltk/venv/lib/python3.5/site-packages/zmq/backend/cython/checkrc.pxd in zmq.backend.cython.checkrc._check_rc (zmq/backend/cython/socket.c:6758)()

KeyboardInterrupt: 

During handling of the above exception, another exception occurred:

KeyboardInterrupt                         Traceback (most recent call last)
<ipython-input-3-7b1044c820de> in <module>()
      3 for andres in matches:
      4     print(andres)
----> 5     input()

/Users/kyle/cltk/venv/lib/python3.5/site-packages/ipykernel/kernelbase.py in raw_input(self, prompt)
    675             self._parent_ident,
    676             self._parent_header,
--> 677             password=False,
    678         )
    679 

/Users/kyle/cltk/venv/lib/python3.5/site-packages/ipykernel/kernelbase.py in _input_request(self, prompt, ident, parent, password)
    705             except KeyboardInterrupt:
    706                 # re-raise KeyboardInterrupt, to truncate traceback
--> 707                 raise KeyboardInterrupt
    708             else:
    709                 break

KeyboardInterrupt: 

Regex


In [9]:
# open Cicero again

from cltk.corpus.utils.formatter import phi5_plaintext_cleanup

cicero_fp = '/Users/kyle/cltk_data/latin/text/phi5/plaintext/LAT0474.TXT'
with open(cicero_fp) as fo:
    cicero_raw = fo.read()
cicero_clean = phi5_plaintext_cleanup(cicero_raw, rm_punctuation=True, rm_periods=False)   # ~5 sec

In [10]:
matches = match_regex(cicero_clean, r'tempus', language='latin', context='sentence', case_insensitive=True)

for match in matches:
    print(match)
    input()


Nam quod ingenio minus possum subsidium mihi diligentia comparavi quae quanta sit nisi *tempus* et spatium datum sit intellegi non potest.

Ita fit ut ego qui tela depellere et volneribus mederi debeam tum id facere cogar cum etiam telum adversarius nullum iecerit illis autem id *tempus* impugnandi detur cum et vitandi illorum impetus potestas adempta nobis erit et si qua in re id quod parati sunt facere falsum crimen quasi venenatum aliquod telum iecerint medicinae faciendae locus non erit.

Illud etiam restiterat quod hesterno die fecerunt ut te in ius educerent ut nobis *tempus* quam diu diceremus praestitueres quam rem facile a praetore impetrassent nisi tu quod esset tuum ius et officium potestasque docuisses.

Verum quoniam tibi instat Hortensius ut eas in consilium a me postulat ne dicendo *tempus* absumam queritur priore patrono causam defendente numquam perorari potuisse non patiar istam manere suspicionem nos rem iudicari nolle neque illud mihi adrogabo me posse causam commodius demonstrare quam antea demonstrata sit neque tamen tam multa verba faciam propterea quod et ab illo qui tum dixit iam informata causa est et a me qui neque excogitare neque pronuntiare multa possum brevitas postulatur quae mihimet ipsi amicissima est faciam quod te saepe animadverti facere Hortensi totam causae meae dictionem certas in partis dividam.

Naevium statim si quid deberetur petiturum fuisse an ne appellaturum quidem biennio Appellandi *tempus* non erat At tecum plus annum vixit.

Qui inter tot annos ne appellarit quidem Quinctium cum potestas esset agendi cotidie qui quo tempore primum agere coepit in vadimoniis differendis *tempus* omne consumpserit qui postea vadimonium quoque missum fecerit hunc per insidias vi de agro communi deiecerit qui cum de re agendi nullo recusante potestas fuisset sponsionem de probro facere maluerit qui cum revocetur ad id iudicium unde haec nata sunt omnia condicionem aequissimam repudiet fateatur se non pecuniam sed vitam et sanguinem petere is non hoc palam dicit mihi si quid deberetur peterem atque adeo iam pridem abstulissem nihil hoc tanto negotio nihil tam invidioso iudicio nihil tam copiosa advocatione uterer si petendum esset extorquendum est invito atque ingratis quod non debet eripiendum atque exprimendum est de fortunis omnibus P.
---------------------------------------------------------------------------
KeyboardInterrupt                         Traceback (most recent call last)
/Users/kyle/cltk/venv/lib/python3.5/site-packages/ipykernel/kernelbase.py in _input_request(self, prompt, ident, parent, password)
    701             try:
--> 702                 ident, reply = self.session.recv(self.stdin_socket, 0)
    703             except Exception:

/Users/kyle/cltk/venv/lib/python3.5/site-packages/jupyter_client/session.py in recv(self, socket, mode, content, copy)
    730         try:
--> 731             msg_list = socket.recv_multipart(mode, copy=copy)
    732         except zmq.ZMQError as e:

/Users/kyle/cltk/venv/lib/python3.5/site-packages/zmq/sugar/socket.py in recv_multipart(self, flags, copy, track)
    357         """
--> 358         parts = [self.recv(flags, copy=copy, track=track)]
    359         # have first part already, only loop while more to receive

zmq/backend/cython/socket.pyx in zmq.backend.cython.socket.Socket.recv (zmq/backend/cython/socket.c:6507)()

zmq/backend/cython/socket.pyx in zmq.backend.cython.socket.Socket.recv (zmq/backend/cython/socket.c:6307)()

zmq/backend/cython/socket.pyx in zmq.backend.cython.socket._recv_copy (zmq/backend/cython/socket.c:1877)()

/Users/kyle/cltk/venv/lib/python3.5/site-packages/zmq/backend/cython/checkrc.pxd in zmq.backend.cython.checkrc._check_rc (zmq/backend/cython/socket.c:6758)()

KeyboardInterrupt: 

During handling of the above exception, another exception occurred:

KeyboardInterrupt                         Traceback (most recent call last)
<ipython-input-10-286e14ad8b7e> in <module>()
      3 for match in matches:
      4     print(match)
----> 5     input()

/Users/kyle/cltk/venv/lib/python3.5/site-packages/ipykernel/kernelbase.py in raw_input(self, prompt)
    675             self._parent_ident,
    676             self._parent_header,
--> 677             password=False,
    678         )
    679 

/Users/kyle/cltk/venv/lib/python3.5/site-packages/ipykernel/kernelbase.py in _input_request(self, prompt, ident, parent, password)
    705             except KeyboardInterrupt:
    706                 # re-raise KeyboardInterrupt, to truncate traceback
--> 707                 raise KeyboardInterrupt
    708             else:
    709                 break

KeyboardInterrupt: 

Word2Vec


In [14]:
from cltk.vector.word2vec import get_sims

get_sims('βασιλεύς', 'greek', lemmatized=False, threshold=0.5)


"word 'βασιλεύς' not in vocabulary"
The following terms in the Word2Vec model you may be looking for: '['βασίμους', 'βασανίτιδος', 'βασανίσῃ', 'βασανιζέσθω', 'βαστάζοντες', 'βασανιζόμεναι', 'βασιληίους', 'βασιλεύσοντος', 'βασκάνοις', 'βαστάξουν', 'βασιλικωτάτη', 'βασκαίνει', 'βασκαίνετε', 'βασιλεῦ”', 'βασκαίνομεν', 'βασίλευσον', 'βασιλεύεις', 'βαστακτικῶς', 'βασιλικήν', 'βασανίσωμεν', 'βασιλεοπάτορος', 'βασιλήιοι', 'βασιανὸν', 'βασιλικωτάτης', 'βασιλίδων', 'βασιλείας', 'βασιλείδου', 'βασιλεῦσαί', 'βαστάζουσαν', 'βασανισμοῦ', 'βασανιστοῦ', 'βασιλεύει', 'βασίλει', 'βασανίζεται', 'βασιλικῶς', 'βασιλεύοι', 'βασσιανὸν', 'βασανῖτις', 'βασᾶν', 'βασιλίσκους', 'βασανισθῆναι', 'βασσαρίδεσσι', 'βασιλέας', 'βασιληΐδος', 'βαστάξαι', 'βασανιζομένη', 'βασιλεύς”', 'βασιλείαις', 'βασανιζέτω', 'βαστάζων', 'βασανιστικὸν', 'βασιλείᾳ“', 'βασανιεῖν', 'βασιλίσι', 'βασταζομένου', 'βασιλείας“', 'βασιλευούσης', 'βασιλευούσηι', 'βασανισταί', 'βασιλάκῃ', 'βασιλει', 'βασανιῶ', 'βασανιοῦμεν', 'βασανίζων', 'βασιλακίου', 'βασιλικὴ', 'βασιλίσιν', 'βασανιστάς', 'βασανίσῃς', 'βασιλεύειν', 'βασιλικά', 'βασίλισσα', 'βασσιανῆς', 'βαστάζειν', 'βασανίζοντι', 'βασιλεύοντι', 'βασανισμὸς', 'βασιλεύ', 'βασίλειε', 'βαστερνῶν', 'βασιλεῦσι', 'βασανιστηρίων', 'βασις', 'βασκαίνοντος', 'βασκαίνω', 'βασανίζοντας', 'βασιλευομένους', 'βαστάσεις', 'βασιλειᾶν', 'βασιλικωτάτῃ', 'βασιληίδα', 'βαστάζουσιν', 'βασιλέων”', 'βασιλίτζην', 'βασιλάκιον', 'βασσαρικὰ', 'βασιλεύσῃς', 'βασιλευσάσης', 'βασίλισσες', 'βασκανίη', 'βασανῖτιν', 'βασιλειῶν', 'βασταχθεὶς', 'βασιλικῷ', 'βασὰν', 'βασανισθεὶς', 'βασιλάκη', 'βασιλεῦσί', 'βασιλεύς', 'βασκαίνοντας', 'βασιλίδου', 'βαστάζουσαι', 'βασανίζουσα', 'βασκήναντες', 'βαστάσει', 'βασιλικώτερον', 'βασανισθέντες', 'βασιλεῦον', 'βασκήνῃς', 'βασιληίην', 'βασίλειόν', 'βασυμ', 'βαστάζουσα', 'βασιλείῳ', 'βασίληος', 'βασιλεῖς', 'βασταζόμενοι', 'βασκαίνουσα', 'βασιλεύομεν', 'βαστάσασαν', 'βασανισθήσεται', 'βαστάζοντος', 'βασκάνῳ', 'βασανισμός', 'βασιλικαί', 'βασιλειῶντα', 'βασιλεοπάτορα', 'βασίλευσεν', 'βασιλεύσασαν', 'βασιλεύσωμεν', 'βασιλεύσαντας', 'βασιλῆς', 'βασανίσαι', 'βασκαινέτω', 'βαστάζοντά', 'βασιλεύς„', 'βασιλευομένῃ', 'βασιλικωτάτην', 'βασανιστηρίοις', 'βασιλεύῃ', 'βασιλίσκου', 'βασιλήια', 'βασιλίσσης', 'βασιλικὰς', 'βασιν', 'βασανίζοντα', 'βαστάσασά', 'βασανιζομένων', 'βασίλειός', 'βαστάσαντα', 'βασανιστὰς', 'βασταζομένους', 'βασιλικοὺς', 'βασιλεύοντός', 'βασίλευε”', 'βασιλεύσαντα', 'βασίλισσαν', 'βασιλέε', 'βασιλεύσουσιν', 'βασκανίης', 'βασιλεύτερον', 'βασσαρὶς', 'βαστέρνας', 'βασκαίνουσιν', 'βασιλισσῶν', 'βαστάζον', 'βασιλισκιανὸν', 'βασανίζονται', 'βασιλευομένην', 'βασιλη', 'βασιλεύσειν', 'βασιλεύσας', 'βασανισθέντα', 'βασιλικώτερος', 'βασανιζομένοις', 'βασσιανοῦ', 'βασκαινόντων', 'βασιλείην', 'βασανίζουσιν', 'βασίμοις', 'βασιλίδας', 'βαστάζονται', 'βασιλίνδα', 'βασσιανὸς', 'βαστάσαντος', 'βασανιζομένῳ', 'βαστάζωμεν', 'βασιλευθῆναι', 'βασανίζεσθαι', 'βασταρνῶν', 'βασκάνου', 'βασιλευσάντων', 'βασσάρα', 'βασανίζοντος', 'βασιλέϊ', 'βασάνου', 'βαστάζω', 'βασσαρέως', 'βασιλεύετε', 'βασά', 'βασιλεύτερός', 'βασάν', 'βασανίζειν', 'βασιλάκης', 'βαστάξας', 'βασιλευέμεν', 'βασιλείᾳ', 'βασανιστέον', 'βασιλέα”', 'βασιλέοιν', 'βασίλευε', 'βασιλικώτεροι', 'βασίλεως', 'βασιλεύουσαν', 'βασιλέος', 'βασάνῳ', 'βασιλικωτέρα', 'βασιλῆος', 'βασιλεῖ„', 'βασσαρικῶν', 'βασιλίσκῳ', 'βασιλικῶν', 'βασί', 'βασιλικωτάτου', 'βασίλειαν', 'βασιλικώτατος', 'βασιλεῦ“', 'βασιλίκια', 'βασιλίσκον', 'βασκανίαι', 'βαστάζοντα', 'βασεμμαθ', 'βασιλικὸν', 'βασιλεῦσίν', 'βασανι', 'βασιλικωτέρας', 'βασιλῆϊ', 'βαστάζοντας', 'βασιλεύοντας', 'βασίλεια', 'βασιλικὸς', 'βασιλε', 'βασιλέως”', 'βασανιζομένου', 'βασιλευόμενα', 'βασιλεύσοντα', 'βασιλήων', 'βασιλίσκων', 'βασιληίων', 'βασιλεύτωρ', 'βασιλεύοντα', 'βασιλήϊον', 'βασιλείας„', 'βασιλευόμεθα', 'βασκαίνων', 'βασκαίνειν', 'βασιλι', 'βασίλισσά', 'βασκάνως', 'βασταγὴν', 'βασι', 'βαστάζεται', 'βασανίζω', 'βασίλειος', 'βασιλάκην', 'βασκαίνοντα', 'βασιλείδην', 'βαστάσαντας', 'βασιλευομένης', 'βασιλείωι', 'βασιλήϊος', 'βασανιστήρια', 'βασιλεῖος', 'βασταζούσης', 'βασιλείοις', 'βασιλείων', 'βασανιζόμενοι', 'βασιλεία”', 'βασανίζεις', 'βασίλιννα', 'βασιλέαν', 'βασσαρίδας', 'βασκήνας', 'βασταζομένη', 'βασανιζομένους', 'βασιλικόν', 'βαστάζοντι', 'βαστάζοι', 'βασίλευσε', 'βασιλεύσει', 'βασιλευόμεναι', 'βασιλευομένοις', 'βασανίζουσι', 'βασιλεία', 'βασιλέες', 'βασάνους', 'βασάνισον', 'βαστάζεσθαι', 'βασανιζόμενον', 'βασκάνιον', 'βασιλείαν“', 'βασταζομένων', 'βασανιστής', 'βαστάζῃ', 'βασκανίαν', 'βασιλέα„', 'βασιλευομένων', 'βασιλεοπάτωρ', 'βασκαινόμενον', 'βασταχθῇ', 'βασιλευομένῳ', 'βασιλειῶντος', 'βασιλειας', 'βασιλιὰ', 'βασιλείας”', 'βασανιζόμενος', 'βασιλεύσασι', 'βασιλήιον', 'βασσαρίδων', 'βασιλεύσεις', 'βασιλικῇ', 'βασανιζομένην', 'βασιλεῖ“', 'βασανιστήριον', 'βασίλισσαι', 'βασκανίας', 'βασιλεύουσι', 'βασιλέων“', 'βασάνιζε', 'βασιλεύεται', 'βασιλικὴν', 'βασιλίσσας', 'βασιλικωτέραν', 'βασιλεύσειεν', 'βασιλινουπόλεως', 'βασα', 'βαστέρναι', 'βασιλικώτατα', 'βασιλικώτατον', 'βασιλεῦσιν', 'βασιλεύσασα', 'βασιλικώτερα', 'βασανίζοντες', 'βασιλικαὶ', 'βασανιστὴν', 'βασιλεύσωσιν', 'βασανισθεῖσα', 'βασιλεύσομεν', 'βασανιστὴς', 'βασιλ', 'βασιλικοί', 'βασιλευθέντες', 'βασιλεύουσα', 'βασιλέων„', 'βασκάνων', 'βασιλευόμενος', 'βασταζόντων', 'βασιλεῖ”', 'βασιλεύτορες', 'βασιλικοὶ', 'βασιλείδης', 'βασταζόμενον', 'βασιλεῖα', 'βασιλίδης', 'βασιλὶς', 'βασίλειά', 'βασιλική', 'βασιλείου', 'βασιλεύσαντες', 'βασιλεῖ', 'βασιλευομένου', 'βασιλάκιος', 'βασιλέα', 'βασιλευόντων', 'βασιλικῆι', 'βαστάσω', 'βαστάζομεν', 'βασιλίδην', 'βασιλίσκος', 'βασανιεῖ', 'βασαν', 'βασανίσας', 'βασιληίας', 'βασανισταῖς', 'βασκαίνουσι', 'βασιλείδῃ', 'βασταγμάτων', 'βασανίζηται', 'βασκανία', 'βασανίσαντες', 'βασιλῆες', 'βασανισθῇ', 'βασιλικούς', 'βασίλιε', 'βαστάγματα', 'βαστάζει', 'βασιλικός', 'βασιλεύης', 'βαστάσῃ', 'βασιλισκιανὸς', 'βασιληίης', 'βαστάσασα', 'βασιλεως', 'βασιλέως', 'βασιλικαῖς', 'βασσάραι', 'βασιλεύοντες', 'βασιλῆας', 'βασιλέ', 'βασανισταὶ', 'βαστάσαι', 'βασιλευούσῃ', 'βασιλεύσαντι', 'βαστάζουσι', 'βασταζόμενα', 'βασάνων', 'βασίλειον', 'βασιλεοπάτορι', 'βασιανοῦ', 'βασιλεύουσιν', 'βασιλήιος', 'βασιλειὰ', 'βαστάρναι', 'βασανίζομαι', 'βασιλεῦσαι', 'βασσαρικοῦ', 'βασιλείαι', 'βασίλισσας', 'βασιλείους', 'βασίλειον”', 'βασιλεύσῃ', 'βασιλεύων', 'βασανίζον', 'βαστάσουσιν', 'βασιλεύτατος', 'βασιλικοῦ', 'βασιλεα', 'βασιλεῖϲ', 'βασιλῆι', 'βασσάρας', 'βασκάνους', 'βασιλεύω', 'βασιλεῦ„', 'βασιλικοῖς', 'βασιλευόμενον', 'βαστάζετε', 'βασσάραις', 'βασιλευ', 'βασιλεύσουσι', 'βασιλεύσωσι', 'βασιλεύσητε', 'βασαβίλας', 'βασιλείαν', 'βασιλίσσα', 'βασιλιά', 'βασιλευς', 'βασιλευθήσονται', 'βαστάρνας', 'βασιλῆα', 'βασιλεῖς”', 'βασιλεύεσθαι', 'βασιλεύτατον', 'βασιληΐς', 'βασίλευεν', 'βασιλεύονται', 'βασιληίη', 'βασίλη', 'βασιλευόμενοι', 'βασκαίνοντες', 'βασιλεύσω', 'βασιλῆά', 'βαστάσαντες', 'βασιλεὺς', 'βαστάζεις', 'βασιλεύτερος', 'βασιλεύσων', 'βαστάξαντες', 'βαστάσας', 'βασιλίσσῃ', 'βασκαίνεις', 'βασιλέα“', 'βασιλεύσοι', 'βασιλικάς', 'βασιλῆ', 'βασ', 'βασιλέων', 'βασανιστῶν', 'βασιλίς', 'βασιλευομένη', 'βαστάξω', 'βασίλειοι', 'βασιλευέτω', 'βαστάγματος', 'βασιλίδος', 'βασανιζόντων', 'βασιλίδες', 'βασιλικῆς', 'βασταχθῆναι', 'βασάνοις', 'βασιλίσσαις', 'βασιλεύσαντος', 'βασανίζει', 'βασιλεύοντος', 'βασσαρίδες', 'βασιλεύη', 'βαστάσασι', 'βασιλεύς“', 'βασιλίδα', 'βασιληίδος', 'βασίλευς', 'βασιλείης', 'βασιλεύσειε', 'βασιανὸς', 'βασιλεῦς', 'βασιλεῦ', 'βασανισθέντων', 'βασταχθήσεται', 'βασμοί', 'βασανίτιδι', 'βασκανίᾳ', 'βασιλευσάτω', 'βασιλείαν”', 'βασιληΐδα', 'βαστά', 'βασιλίδι', 'βασιλεῖαι', 'βασταζόμενος', 'βασιλικὰ', 'βασιληίου', 'βασιλέως“']'.

In [17]:
get_sims('amicitia', 'latin', lemmatized=True, threshold=0.25)


Out[17]:
['beneuolentia',
 'erga',
 'dignitas',
 'incolumitas',
 'modestia',
 'pudicitia',
 'uenia',
 'praemium',
 'gloria',
 'propinquus']

IR w/ Word2Vec keyword expansion


In [ ]: